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基于 最 低 度 偏 置 重启 随机 游 走 的 链 路 预测 方法 


李 巧 丽 ， 韩 “ 华 ; 
(武汉 理工 大 学 EGRE AX 430070) 


摘 要 : 链 路 预测 是 数据 挖 据 主 题 中 的 一 个 重要 问题 。 基 于 随机 游 走 的 相似 性 方法 一 般 设 定 游 走 粒子 转移 到 相 邻 节 
点 的 概率 是 相等 的 ， 忽 略 了 节 点 度 值 对 转移 概率 的 影响 。 针对 此 问题 ， 提 出 一 种 基于 lowest-degree 偏 置 重启 随机 游 
走 的 链 路 预测 方法 。 Rt is DA, 对 游 走 粒子 的 转移 概率 进行 重新 定义 ， 然后 将 最 低 度 偏 置 随机 游 走 
策略 运用 到 重启 随机 游 走 中 ， 探 究 粒 子 在 游 走 过 程 中 最 低 度 偏向 策略 对 节点 相似 度 的 影响 。 在 九 个 真实 网 络 数据 集 
上 进行 链 路 预测 ， 结 果 表 明 ， We en dt 且 挖 据 了 更 多 网 络 拓扑 结构 信息 ， 证 明 该 算法 在 节点 
相似 性 的 评估 上 具有 一 定 的 优势 。 
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Link prediction algorithm based on lowest-degree preference random walk with restart 


Li Qiaoli, Han Huat 
(School of Science, Wuhan University of Technology, Wuhan 430070, China) 


Abstract: Link prediction is an important issue in the subject of data mining. The similarity algorithm based on random walk 
often set the probability of particles transferring to adjacent nodes to be equal, but ignore the effect of node degree on the 
transition probability. To solve this problem, this paper proposed a link prediction algorithm based on lowest-degree preference 
random walk with restart. Firstly, the algorithm redefined the transition probability of the walkers by introduce lowest-degree 
preference function, then applied it to the random walk with restart, and explored the effect of lowest-degree preference 
strategy on node similarity. The experimental results of nine real networks show that the proposed method has higher 
prediction accuracy, and gives more network topology information, which proves that the algorithm has certain advantages in 
the evaluation of node similarity. 
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0 引言 的 概率 随机 游 走 到 它 的 相 邻 节点 ， 这 个 过 程 一 直 持 续 到 粒子 
i 出 现在 每 个 节点 上 的 概率 分 布 达 到 平稳 状态 。 这 类 指标 只 关 
近年 来 ， 网 络 科 学 领域 的 研究 莲 勃 发 展 ， 越 来 越 多 的 复 注 节 点 邻居 的 局 部 信息 ， 可 以 在 计算 复杂 度 和 预测 性 能 之 
杂 系 统 成 为 复杂 网 络 学 趾 的 研究 对 象 。 复 杂 系 统 中 的 个 体 和  ” 取得 良好 的 折 中 ， 因 此 还 被 广泛 应 用 于 推荐 系统 、 信 |) tem 
个 体 间 的 联系 可 以 抽象 为 复杂 网 络 来 表示 。 常 见 的 复杂 网 络 和 社团 划分 等 问题 忠和。 
有 生物 网 络 趾 、 社 会 网 络 趾 、 通 信和 网 络 由 等 。 链 路 预测 作为 复 随机 游 走 的 这 一 优势 使 其 成 为 解决 链 路 预测 问题 的 主 3 
杂 网 络 的 重要 研究 工具 ， 由 在 借助 网 络 中 已 知 数据 信息 挖掘 。 方法 ， 并 因此 取得 了 许多 成 果 。 一 个 典型 的 例子 是 
网 络 中 未 知 的 连 边关 系 扩 1. 链 路 预测 的 研究 在 众多 领域 发 挥 。 PageRanki5 算 法 ， 其 中 随机 游 走 方法 起 着 关键 作用 。 此 外 ， 
重要 价值 ， 从 理论 上 来 说 ， 可 以 帮助 更 好 的 理解 网 络 演化 五 等 人 09 认 为 在 现实 网 络 中 , 节点 不 仅 趋向 于 连接 度 小 的 节 
机 制 及 网 络 动力 学 行为 多， 从 应 用 上 来 说 ， 当 前 社交 网 络 上 xu. qu Hon gg T iEBEHGeD Rx. Xéih — Big ABS PLUS XE 
的 用 户 拓展 、 电 信 网 络 上 的 诈骗 源头 识别 、 电 商 网 络 上 的 客 。 的 链 路 预测 算法 ， 此 算法 涉及 到 网 络 节点 中 心性 的 计算 ， 
户 精准 营销 等 & 20 都 是 链 路 预测 在 现实 网 络 中 的 典型 应 用 。 杂 度 相对 较 高 。 文 献 [17] 通 过 deepwalk 网 络 表示 学 习 算 法 得 
前 ， 许 多 经 典 的 链 路 预测 算法 被 提出 。 基 于 相似 性 的 ”到 节点 的 向 量 表 示 ， 并 通过 欧 氏 距离 表征 各 节点 的 结构 相似 
链 路 预测 算法 应 用 领域 最 为 广泛 。 基 于 网 络 结构 相似 性 的 方 度 ， 提 出 一 种 网 络 表示 学 习 与 随机 游 走 的 链 路 预测 算法 ， 该 
法 可 大 致 上 分 为 : a) 基 于 局 部 信息 的 方法 四; b) 基 于 路 径 的 相 。 ”算法 在 预测 过 程 中 同时 考虑 网 络 结构 信息 和 节点 属性 信息 ， 
似 性 方法 1，oc) 基 于 随机 游 走 的 方法 4。 基于 局 部 信息 的 方 ” 在 处 理 较 大 规模 的 网 络 时 很 吃力 。Jin 等 人 0 提出 了 一 种 有 
法 主要 利用 节点 的 局 部 信息 (如 节点 的 度 、 共 同 邻 居 数 目 等 ) ”监督 和 扩展 的 重启 随机 游 走 方法 ， 其 中 每 个 节点 对 应 一 个 重 
进行 链 路 预测 。 这 类 方法 的 计算 复杂 度 较 低 ， 但 往往 以 牺牲 。 启 概率 ， 实 验 结果 表明 ， 所 提 算 法 为 排名 和 链接 预测 "m 
精度 为 代价 。 基 于 路 径 的 方法 倾向 于 利用 节点 之 间 的 路 径 信 ” 供 了 较 好 性 能 ， 但 节点 重启 概率 的 设置 具有 非 普 适 性 ， 限 制 
息 (如 节点 之 间 路 径 数量 ， 路 径 中 间 节 点 的 信息 等 ) 计 算 节点 了 该 类 算法 的 应 用 范围 。 
相似 性 。 这 类 方法 在 涉及 到 多 阶 路 径 信息 以 及 全 局 路 径 信息 上 述 基 于 随机 游 走 的 方法 大 多 数 使 用 均匀 分 布 来 定义 粒 
时 ， 计 算 复杂 度 相对 较 高 。 基 于 随机 游 走 的 方法 是 基于 粒子 。 子 的 转移 概率 ， 忽 略 了 节点 局 部 区 域 的 细微 结构 对 转移 概率 
随机 游 走 过 程 定义 的 ， 即 假设 粒子 从 初始 节点 开始 ， 以 一 定 ”的 影响 所 0。 事实 上 ， 由 网 络 的 度 度 相 关 性 的 可 以 看 出 ， 节 
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点 之 间 的 连接 不 是 随机 产生 的 ， 粒 子 在 游 走 
点 度 值 的 影响 。 最 近 , 文献 [23] 发 现 , 随机 游 
问 网 络 上 的 高 度 节 点 ， 这 种 搜索 策略 更 有 可 能 导致 较 低 的 搜 
索 效率 ， 并 受 PageRank 算法 5 的 启发 ， 提 出 一 种 最 低 度 偏 
好 随机 游 走 的 搜索 策略 (LPRW)， 实 验 结 果 表 明 , 与 无 偏向 的 
随机 游 走 相 比 ，LPRW 方法 可 以 显著 减少 搜索 时 间 。 吕 等 四 ] 
人 认为 粒子 在 游 走 过 程 中 具有 一 定 的 度 偏向 性 ， 提 出 了 
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HB. S AREIS YO pahe | 代表 连接 节点 和， 
之 间 路 径 长 度 为 ! 的 路 径 数 。 

f)SimRank 指标 (SimR)。 它 假设 如 果 两 个 节点 所 相连 的 
节点 相似 ， 则 这 两 个 节点 就 相似 ， 描 述 了 两 个 分 别 从 节点 4 
和 节点 ?出 发 的 粒子 相遇 时 平均 经 过 的 时 间 。 用 式 (6) 表 示 为 


Ssing =C X ee (6) 


BRWR 方法 ， 实 验 结果 同样 表明 ， 粒子 偏向 游 走 到 高 度 节点 
的 程度 越 大 ， 预 测 的 精度 越 低 。 
受 上 述 方法 和 PageRank 算法 的 启发 ， 本 文 提 出 了 一 种 
最 低 度 偏 置 重启 随机 游 走 链 路 预测 算法 ， 该 算法 是 由 纯 随机 
游 走 策略 和 仅 访问 最 低 度 邻 居 组 成 的 混合 游 走 策略 ， 并 将 其 
应 用 到 链 路 预测 中 。 该 方法 首先 通过 引入 最 低 度 偏 置 函数 ， 
对 游 走 粒 子 的 转移 概率 进行 重新 定义 ;然后 将 最 低 度 随 机 游 
走 策略 运用 到 重启 随机 游 走 中 ， 探 究 粒 子 在 游 走 过 程 中 最 低 
度 偏 向 策略 对 其 转移 的 作用 ， 最 后 通过 多 个 真实 网 络 数据 集 
验证 了 所 提 方 法 的 有 效 性 。 
1 ”相关 工作 
1.1 问题 描述 

给 定 一 个 无 权 无 向 网 络 , 用 一 个 二 元 序 对 G=(V,E) 表示 ， 
BE VN AE AM EM 条 边 。 对 于 网 络 中 所 有 的 节点 , 所 
有 可 能 产生 连 边 的 两 点 集合 用 Q=VxV 表示 。 连 通 的 网 络 G 


其 中 ， 假 定 5% =1， Ce[0 当 代表 相似 性 传递 时 的 衰减 参数 。 
g) 平 均 通勤 时 间 (ACT)。 基 于 随机 游 走 定义 的 相似 性 指标 ， 
表示 一 个 粒子 从 节点 4 游 走 到 节点 v 所 需 走 的 平均 步 数 ， 则 
节点 的 相似 性 表示 为 
1 


SACT = ( 7 ) 


Iti -25, 


其 中 ， 必 代表 网 络 的 拉 普 拉 斯 矩阵 中 第 “ 行 第 " 列 对 应 的 元 
素 值 


hb) 有 重启 的 随机 游 走 指标 (RWR)。 该 指标 是 由 PageRank 
算法 拓展 而 来 的 。 它 是 指 执行 随机 游 走 的 粒子 在 每 走 一 步 都 
可 能 以 一 定 概率 返回 到 它 的 初始 位 置 。 设 粒子 返回 概率 为 
1-c， 网 络 的 马尔 可 夫 转 移 矩 阵 P 可 表示 为 p=a1k， 其 中 
Pw 和 a 分 别 表示 矩阵 了 和 邻接 矩阵 A 中 的 元 素 。 某 一 个 粒 
子 初始 时 刻 在 节点 ， 则 t+1 时 刻 到 达 网 络 中 各 个 节点 的 概 
率 分 布 向 量 可 表示 为 

m, (t --1) 2 c- P", (t) - (1-c)e, (8) 


可 以 用 邻接 矩阵 A- (ae QeveV) 表示 ， 其 中 4 中 的 元 素 
qaw=1, 则 代表 节点 对 (ww) 之 间 有 连 边 , 否则 a, =0 。 预 测算 法 
为 网 络 中 每 一 对 未 连接 的 节点 赋予 一 个 相似 性 分 数值 ys 。 将 
所 有 So 降序 排列 ， 排 在 最 前 面 的 边 存在 的 可 能 性 越 大 。 
在 实际 预测 中 ， 一 般 根 据 不 同 评价 需求 设 定 相似 分 数 赣 
值 ， 相 似 度 高 于 阔 值 的 连 边 将 选取 为 推荐 结果 ， 或 根据 相似 
分 数值 排序 结果 , 选取 前 面 1 条 预测 连 边 作为 预测 结果 。 预测 
连 边 进一步 可 应 用 于 电 商 推荐 系统 或 在 生物 实验 中 作为 指导 
依据 等 。 
1.2. 链 路 预测 方法 

对 于 网 络 中 任意 两 个 节点 wveV , YE TG) 和 TO) 分 别 为 


三 


其 中 ，e 代表 初始 状态 。 上 式 的 稳定 解 可 以 表示 为 
m, =- -cP te, , HP m, 代表 稳 态 解 向 量 ，mr 代表 五 的 
第 v 个 元 素 ， 则 RWR 相似 性 定义 为 

Se = A + Mn (9) 


2 ”基于 最 低 度 偏 置 重启 随机 游 走 的 相似 性 方法 

随机 游 走 在 复杂 网 络 领域 中 起 着 至 关 重 要 的 作用 ， 并 在 
+ 个 领域 取得 了 一 系列 研究 成 果 , 包括 社区 检测 、 链 接 预测 、 
要 节点 挖掘 等 ， 一 般 分 为 纯 随 机 游 走 和 有 偏 随机 游 走 29。 
纯 随机 游 走 是 指 游 走 者 从 任意 节点 或 源 节点 4 开始， 只 能 以 


D 


Lim 


节点 的 邻居 集合 ， 以 |reo|l 表示 集合 的 势 ，TQDNTG) 表示 节点 
的 共同 邻居 集合 ，& 代表 节点 的 度 。 下 文 对 几 种 常用 的 相似 
性 指标 中 介绍 如 下 : 
a) 共 同 邻 居 (CN)。 通 过 节点 对 之 间 的 共 邻 节点 的 个 数 刻 
画 节点 上 和 ?的 相似 性 ， 用 (D) 式 表示 为 
Si^ -|FGonro)] (1) 
其 中 ， Tw 为 节点 4 的 邻居 集合 ，| | 表示 集合 的 势 。 

b)PA 指标 。 基 于 节点 间 的 偏好 连接 特性 提出 的 指标 ， 认 


为 节点 更 倾向 于 与 高 度 节 点 相连 ， 即 
Sm = kuk, 2) 
c)RA 指标 。 是 一 种 基于 共享 特征 的 相似 性 度量 方法 , 其 
思想 是 度 小 的 共 邻 节点 的 贡献 大 于 度 大 的 共 邻 节点 ， 采 用 共 邻 
节点 的 度 的 倒数 对 相似 性 进行 加 权 ， 则 节点 的 相似 性 定义 为 
1 
aem 之 元 G3) 


ex (WI T) ko 
该 指标 称 为 高 度 节点 不 利 指标 ， 
HDI — [FG N ro) 
Se = max{k,,k,} (4) 
该 指标 实际 上 是 一 种 最 短路 径 方法 ， 考 虑 
了 跳 的 路 径 数 ， 并 根据 路 径 长 度 的 不 同 采取 


d)HDI 指标 。 


e)Katz 指标 。 
了 两 个 节点 间 所 
TRE, BH 


SE =) B' | path? |= 
I 


BA, * B (A), * BAT), + 


G) 


等 概率 随机 游 走 的 方式 跳 到 一 个 相 邻 节点 。 相 比 之 下 ， 有 偏 
随机 游 走 是 指 在 未 知 网 络 中 强制 寻找 最 近 的 目标 节点 进行 游 
走 。 一 个 有 偏向 的 随机 游 走 者 从 当前 节点 跳 转 到 潜在 的 新 节 
点 之 一 的 跳 转 概率 是 不 等 的 ， 并 且 游 走 者 倾向 于 访问 倾向 于 
访问 或 忽略 高 拓扑 属性 值 的 节点 ， 包 括 强 度 ， 集 聚 系数 或 度 
等 。 因 此 ， 本 文 假设 粒子 在 随机 游 走 的 过 程 中 ， 采 用 纯 随 机 
游 走 和 偏向 于 访问 最 低 度 邻 居 的 混合 游 走 策略 ， 并 基于 混合 
游 走 策略 得 到 粒子 的 跳 转 概 率 和 矩阵 。 在 此 基础 上 ， 让 粒子 以 
重启 随机 游 走 的 方式 进行 游 走 ， 对 网 络 中 未 连 边 的 节点 对 进 
行 相似 性 计算 ， 找 到 每 个 网 络 最 佳 的 最 低 度 偏 置 调节 参数 ， 
以 达到 提高 预测 精度 的 目的 。 
2.1 最 低 度 偏 置 的 重启 随机 游 走 
定义 1 最 低 度 偏 置 转移 概率 。 考 虑 一 个 在 网 络 相 邻 节 
点 之 间 跳 跃 的 粒子 ， 由 蕊 尔 可 夫 过 程 RI 可 知 ， 粒 子 
刻 的 状态 只 与 现在 的 状态 有 关 。 基 于 最 低 度 偏 置 随机 游 走 过 
程 中 ， 在 每 一 个 时 间 步 ， 游 走 者 采取 纯 随 机 游 走 和 偏向 于 访 
问 最 低 度 邻居 节点 的 混合 游 走 策略 ， 使 用 
调整 两 者 的 融合 比率 ， 则 当前 在 节点 4 的 游 走 者 跳 转 到 节点 
v 的 转移 概率 3] 定义 如 下 : 

wa =- fw? + pw (10) 
其 中 ， pe(0,D ，wY=a Wh 表示 纯 随 机 游 走 策略 的 转移 概率 ， 
Ww? 表示 最 低 度 游 走 策略 的 概率 。 € 的 定义 如 下 

1 
wo /emt) "人 (11) 
0, vU, 
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H, U, 表示 节 点 4 的 最 低 度 邻 居 节 点 的 集合 ，card(U,) 表示 
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Sw = I (17) 


最 低 度 邻居 节点 的 个 数 。 值 得 注意 的 是 ， 当 p=0 时 ， 最 低 度 
遍 好 随机 游 走 退化 为 通用 随机 游 走 ， 这 种 情况 下 ， 游 走 者 在 
任何 时 间 停 留 在 节点 上 的 平稳 状态 概率 与 节点 4 的 度数 成 
E 比 P74， 因此 游 走 者 更 有 可 能 在 搜索 过 程 中 访问 度数 高 的 节 
点 。 而 在 最 低 度 偏好 随机 游 走 的 过 程 中 游 走 者 同时 采取 p>0 
时 的 最 低 度 搜索 策略 ， 因 此 避免 了 这 种 情况 的 发 生 。 图 1 给 
出 了 B=1/3 时 最 低 度 偏 置 随机 游 走 的 转移 概率 。 


a^ 


图 1 最 低 度 偏 置 随机 游 走 示 意图 
Fig.1 Schematic diagram ofthe least lowest-degree preference random walk 
基于 最 低 度 偏 置 的 重启 随机 游 走 是 指 游 走 粒子 从 网 络 中 的 
某 一 个 节点 出 发 ， 每 游 走 一 步 将 选择 是 以 概率 1- o 跳 转 到 相 邻 
节点 ， 还 是 以 概率 4 返回 初始 位 置 。 如 果 粒 子 选择 以 概率 1-a 
跳 转 到 相 邻 节点 , 此 时 会 以 定义 1 中 的 最 低 度 偏 置 转移 概率 ww 
选择 下 一 步 跳 转 到 的 节点 , 重复 上 述 过 程 , 直到 达到 平稳 状态 。 
采用 最 低 度 偏 置 转移 的 重启 随机 游 走 既 避免 了 随机 游 走 过 程 中 
节点 等 概率 转移 和 偏向 高 度 节 点 游 走 的 现象 ， 又 解决 了 有 偏 置 
随机 游 走 在 达到 平稳 状态 之 前 游 走 粒子 就 发 生 终止 的 问题 。 

定义 2 最 低 度 偏 置 重启 随机 游 走 指标 。 将 定义 1 中 节 
点 的 最 低 度 偏 置 转移 概率 用 于 有 重启 随机 游 走 中 进而 得 到 最 
低 度 偏 置 的 重启 随机 游 走 算法 (lowest-degree preference 
random walk with restart， 简 称 LPRWR 算法 )。 令 m) 表示 


粒子 在 时 间 1=0 从 节点 4 出 发 , 在 1 时 刻 停留 在 节点 v 的 概率 。 


这 个 概率 的 演化 由 下 面 的 主 方程 给 出 ， 定 义 为 
N 

7, (1) 2 (0—-0)9 ,aw Aa) + an, (0) (12) 
Iz 

其 中 ，% 为 重启 概率 ，zw(0) 表示 初始 状态 向 量 的 的 第 "个 元 素 。 


令 一 步 转移 概率 的 矩阵 表示 为 W， 则 随机 游 走 的 迭代 公 


7, (f D) 2 (17 0)W', (r) o, (0) (13) 
根据 C-K 方程 ， 粒 子 的 m 步 转移 概率 可 表示 为 Wy ， 
所 以 粒子 随机 游 走 m 步 的 迭代 公式 为 
T, (t +m) - (1 aW y'a, (t) + az, (0) (14) 
当 ! 一 o 时 , 由 马尔 可 夫 链 的 平稳 状态 2 可 知 ,， 随机 游 走 
的 概率 分 布 可 能 会 收敛 到 一 个 极限 概率 分 布 ， 也 既是 平稳 分 
fg, Bii D -0-eW'nmeeom(0, ， 因 此 式 (14) 可 以 改写 为 
m, - (1- 3W Tr, - a, (0) 
-a(I -(1- à)W?)"z,(0) (15) 
= Rr, (0) 
中 ， 为 稳 态 时 的 概率 分 布 ，R 为 初始 状态 m. 下 的 点 的 相关 
度 。 计 算 稳 态 解 时 所 有 路 径 都 已 考虑 。R 可 写成 无 穷 级 数 的 形式 : 
R=a(I-(l1-a)WT) = 
a, (0-a) (Wy 


AL 


$ 


(16) 


其 中 ， 元 素 n, 代表 由 节点 出 发 的 粒子 最 终 到 达 节 点 v 的 概率 。 
综 上 所 述 ， 该 算法 的 流程 如 下 : 
算法 1 LPRWR 算法 
输入 : 网 络 邻 接 和 矩阵 A= (a) Qv eV) ， 最 低 度 偏 置 调节 参数 A ， 
END EM 
四 络 的 节点 相似 度 得 分 矩阵 S 。 
a) 初 始 化 最 低 度 偏向 转移 第 阵 W < Oy. ， 
b) for i=1 to N, j=1 to N 
c) WIR w,-0-)w? * Bw? 计算 节点 间 的 最 低 度 偏 置 转移 概率 ; 
更 新 最 低 度 偏 置 转移 矩阵 W 
d) for i=1 to N do 
e) 7, 2a -0-0W7)'z,(0) 
他 各 节点 的 相似 度 得 分 值 */ 
f) End While 
g) End for 
h)Return S 
2.2 算法 收敛 性 
LPRWR 算法 中 粒子 随机 游 走 过 程 的 收敛 性 是 保证 算法 
能 应 用 的 必要 和 条件， 下文 给 出 算法 收敛 性 的 严格 证 明 。 
定理 1 LPRWR 算法 是 收敛 的 。 
证 明 : a) 由 于 最 低 度 偏 置 转移 矩阵 W 中 的 元 素 Wo 满足 
w,20, l"--!, wveV, ， 因 此 矩阵 W ERENLER. BENLE 
阵 性 质 可 得 出 ， 和 矩阵 W 是 不 可 约 的 。b) 随 机 游 走 过 程 是 一 个 
马尔 可 夫 链 ， 对 于 其 中 的 任 一 状态 ， 当 随机 游 走 经 过 这 一 状 
态 后 ， 由 于 存在 重启 概率 ， 再 次 遍历 这 一 状态 所 需 游 走 的 步 
数 是 不 确定 的 ， 因 此 整个 游 走 过 程 是 非 周期 性 的 。 
由 此 可 得 出 LPRWR 算法 采用 的 随机 游 走 过 程 是 各 态 历 
经 的 P?， 故 LPRWR 算法 是 收敛 的 。 
23 复杂 度 分 析 
定理 2 LPRWR 算法 的 时 间 复 杂 度 是 OQN?) 。 
证 明 : 由 于 在 一“ ，LPRWR 算法 的 概率 分 布 会 收敛 到 
一 个 平稳 分 布 ， 根 据 稳 态 解 到 =xC-d-o7) AD) ， 故 算法 
的 关键 是 计算 矩阵 0-4-oW"™ 7 的 逆 ， 而 求 一 个 Yx KERERE 
或 伪 逆 的 复杂 度 是 O(N°) , 故 LPRWR 算法 的 时 间 复 杂 度 是 ON?) 。 


3 ”实验 条 件 介绍 


实验 中 , 将 网 络 连 边 E 划分 为 训练 集 Er 和 测试 集 E^, 其 
中 E=EFUE”， 且 ErNE* -O 。 训 练 集 被 认为 已 知 信息 用 于 计 
算 未 连 边 节 点 对 的 得 分 ， 有 效 的 算法 应 当 赋 予 测试 集 更 高 的 
分 值 ， 而 对 不 存在 的 连 边 赋予 较 低 的 分 值 。 
文中 采用 十 折 交 叉 检 验 来 测试 所 提 算 法 的 性 能 ， 并 且 为 
了 方便 进行 数据 处 理 ， 将 所 有 数据 以 CSV 格式 保存 在 
MySQL 数据 库 中 。 使 用 Rapidminer 数据 挖掘 工具 按 比 例 
E?:E7 =1:9 随机 选取 训练 集 和 测试 集 。 实验 中 , 每 个 AUC 和 
Precision 均 为 不 少 于 100 次 独立 实验 结果 的 均值 。 
3.1 衡量 指标 
链 路 预测 算法 的 主流 衡量 指标 包括 AUC(area under the 
curve) POF A A E (Precision). 前 者 侧重 于 从 整理 上 评价 算 
法 对 未 知 对 象 的 区 分 度 ; 后 者 侧重 于 精准 预测 ， 关 注 的 是 预 
测 前 列 结果 命中 的 比率 。 
AUC 是 指 在 衡量 算法 性 能 时 ， 从 测试 集 E? 中 随机 选择 
一 条 边 的 分 数值 大 于 一 条 不 存在 边 的 分 数值 的 概率 。 实 验 时 ， 


LH 
uc: 


E 


节点 相似 度 得 分 矩阵 S < Du 


/* 计算 节点 4 和 网 络 中 其 


A 


上 式 中 ，R 还 可 以 看 做 W") 的 加 权 和 ， 其 元 素 Wo 表示 
经 过 7 次 迭代 后 ， 随 机 游 走 粒子 从 节点 4 停留 在 节点 v 的 概率 。 
n 表示 一 个 大 规模 的 转换 , 随 着 的 不 断 增 加 , 随机 游 走 将 转换 
的 更 远 半 。 故 LPRWR 算法 可 以 认为 是 基于 考虑 两 节点 之 间 转 
移 的 所 有 路 径 来 对 相似 性 进行 优化 。 由 此 定义 LPRWR 相似 度 为 


若 测 试 集中 边 的 预测 分 数值 大 于 不 存在 边 的 分 数值 加 1， 此 
种 情况 次 数 记 为 w 次 ， 二 者 相等 时 则 加 0.5， 情 况 次 数 记 为 
n 次 ， 则 AUC 指标 可 以 表示 为 


_n'+0.5n" 


AUC (18) 
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rh. n 为 独立 比较 的 次 数 ， 显然, 随机 预测 下 AUc<0s 。 此 E 
Sp us zt — 
oo nn 
姐 等 证 明了 : 无 论 测试 集 比例 取 何 什 ， 最 多 取 672400 次 为 了 评估 LPRW 方法 的 性 能 ,本文 将 首先 计算 节点 间 的 


时 ， 能 够 以 90% 的 置信 度 确保 AUC 的 绝对 计算 误差 不 超过 ” ” 相似 度 得 分 ， 然 后 使 用 AUC 和 Precision 两 个 衡量 指标 来 量 
1%。。 因 此 ， 在 本 文 实验 中 4 均 取 672400 次 。 化 本 文 方法 进行 链接 预测 的 准确 性 。 在 实验 中 ， 按 照 基 于 随 

Precision 指标 关注 的 是 排 在 前 工 个 预测 边 中 预测 准确 的 比率 ， 机 游 走 方法 中 的 典型 做 法 , 设置 重启 系数 ga=0.150%15,31。 由 
表示 为 于 篇 幅 所 限 ， 下 文 只 给 出 AUC 指标 的 运行 结果 。 

1 相关 参数 对 AUC 结果 的 影响 

EROF 8 主要 用 来 调节 最 低 度 偏 置 游 走 的 比例 ， 其 
其 中 ，! 代表 预测 分 数值 排 在 前 工 个 的 连 边 中 出 现在 居中 的 个 数 。 中 ps[0D) 。 本 文 研究 了 参数 8 对 预测 结果 的 影响 ， 实 验 结果 
3.2 数据 集 如 图 2 所 示 。 结 果 表 明 ， 相 比 6=0( 无 偏向 随机 游 走 )， 指 标 

实验 选取 9 个 不 同 规模 的 真实 网 络 数据 集 ， 这 些 数据 身 的 预测 精度 都 得 到 一 定 的 提高 ， 且 在 一 定 的 参数 范围 内 均 可 
均 来 源 于 网 络 公开 数据 库 B23。 包 括 Dolphins,Neural,Polbook， 以 取得 最 佳 的 预测 精度 ， 这 说 明 最 低 度 偏 置 游 走 对 相似 性 的 
Metabolic, Netscience(NS), Football, Circuit, Facebook, 影响 是 不 可 或 缺 的 。 从 图 2 中 的 每 个 子 图 可 以 观察 到 ， 不 同 
Hamster。 上 述 网 络 数 据 集 的 相关 统计 特性 如 表 1 所 列 。 其 中 ， 网 络 的 AUC 曲线 到 达 峰 值 后 会 呈现 不 同 程度 的 下 降 ， 其 中 
N Ej M 分 别 为 节点 数 与 边 数 ，(k) 为 网 络 平均 度 ，(4) 为 平均 大 部 分 网 络 如 Dolphins，Neural，Polbook 等 网 络 的 下 降 趋势 
REKI, r 为 同 配 性 系数 ，# 为 度 异 质 性 ，C 为 集聚 系数 。 较 快 。 这 在 一 定 程度 上 表明 最 低 度 偏 置 程度 较 小 时 ， 预 测 的 


l 
Precision = — 9 
Tecis10n (1 ) 


Ei 


YE 


dl 9 个 真实 网 络 的 拓扑 特征 准确 度 较 高 。 从 图 中 可 以 看 出 ， 在 Dolphins 网 络 ，Metabolic 

Tab.1 Topological parameters of nine real networks 网 络 ，NS 网 络 中 ，B 在 0.05 时 预测 效果 最 好 ; 在 Neural 网 

Network N M (k) (d) r H C 络 , Hamster 网 络 中 ，Z 0.1 时 预测 效果 更 好 ; 对 于 Polbook 
Dolphins 62 159 5.129 3.357 -0.044 1.327 0.259 网 络 , Facebook 网 络 , 最 优 的 8 73 0.15; 对 于 Football 网 络 ， 

Neural 297 2148 14.465 2.455 -0.163 1.801 0.308 最 优 的 A 73 0.25; Circuit 网 络 中 , 最 优 的 B 主要 分 布 在 6=0.45 


Polbook 105 441 8.400 3.079 -0.128 1.421 0.488 和 =01 附 近 。 因 此 ,不 同 的 网 络 取得 最 优 AUC 值 时 对 应 的 
Metabolic 453 2025 8.940 2.676 -0.226 4.485 0.647 参数 值 有 一 定 的 不 同 ， 然 而 最 优 的 参数 值 取 得 较 小 时 比如 在 
NS 1589 2742 3.451 5.823 0.461 2.010 0.878 0 到 0.2 之 间 时 ， 可 以 取得 较 好 的 预测 效果 。 此 外 ，AUC fü 


Football 115 613 10.66 2.510 0.162 1.690 0.407 取得 最 优 时 6#0 也 相当 于 粒子 在 游 走时 偏向 于 度 小 的 节点 ， 
Circuit 512 819 3.199 6.858 -0.030 1.259 0.055 这 与 RA 指标 的 思想 一 致 ， 即 低 度 值 的 共 邻 节点 的 作用 大 于 
Facebook 2888 2981 2.064 3.870 -0.668 0.250 0.003 高 度 值 的 共 邻 节点 的 作用 。 综 上 分 析 ， 在 实际 应 应 用 中 ， 可 以 
Hamster 1858 12534 13.490 3.390 -0.085 3.360 0.090 选取 较 小 的 8 值 进行 预测 。 
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图 2 参数 对 AUC 结果 的 影响 
Fig.2 The influence ofthe parameter value on the AUC results 
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4.2 可 行 性 分 析 
为 了 进一步 验证 最 低 度 偏 置 随机 游 走 的 可 行 性 


LPRWR 算法 的 有 效 性 ， 将 所 提 方 法 与 8 个 主流 指标 (包括 4 
个 局 部 指标 和 4 个 全 局 指标 ) 进 行 预测 性 能 的 对 比分 析 , 各 个 
指标 的 AUC 值 如 表 2 所 示 。 可 以 看 出 ，LPRWR 算法 在 8 个 
网 络 中 取得 了 最 高 AUC 值 ， 仅 在 Facebook 网 络 中 略 低 于 
RWR 指标 。 另 外 ， 虽 然 其 他 几 种 方法 在 某 些 网 络 上 的 得 分 可 
能 接近 本 文 方法 ， 但 它们 在 其 他 一 些 网 络 上 的 表现 存在 明显 
差异 。 这 一 事实 表明 了 所 提 方 法 预测 结果 较为 稳定 ， 在 广泛 
的 网 络 上 具有 一 定 的 优势 ， 而 其 他 基准 指标 可 能 仅 在 某 些 特 
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J5^^, CN. PA, RA, HDI 这 些 局 部 指标 中 ，RA 指标 对 
度 大 的 节点 进行 惩罚 ， 在 局 部 指标 中 预测 效果 相对 较 好 。 在 


Katz、SimR、ACT、RWR 这 些 全 局 指标 中 ， 其 中 Katz 指标 
是 考虑 节点 之 间 的 所 有 路 径 ，SimR、ACT、RWR 都 是 基于 随 
几 游 走 过 程 定义 的 指标 ， 且 RWR 在 这 几 个 指标 中 整体 表现 
上 对 较 好 。 若 以 RWR 指标 为 基准 ，LPRWR 算法 预测 准确 度 
F 均 提升 了 2.14%, HE Football 网 络 中 AUC 结果 提升 了 
4.48%。 由 定理 2 可 知 LPRWR 算法 的 时 间 复 杂 度 和 RW R 
算法 相同 ， 均 为 CO) ， 在 两 者 时 间 复 杂 度 相同 的 清 况 下 ， 
LPRWR 方法 的 预测 准确 度 比 RWR 方法 更 好 , 进 


MHS 


定 的 网 络 上 表现 良好 。 最 低 度 偏 置 重启 随机 游 走 对 链 路 预测 是 有 效 和 可 行 的 。 
表 2 不 同 指标 下 AUC 结果 对 比 
Tab.2 Comparison of AUC for different indices 
Network CN PA RA HDI Katz SimR ACT RWR LPRWR 
Dolphins 0.7666 0.6606 0.7668 0.7948 0.8314 0.8234 0.7713 0.8264 0.8525 
Neural 0.8465 0.7542 0.8685 0.7784 0.8556 0.7632 0.7425 0.8919 0.9171 
Polbook 0.8882 0.6707 0.8997 0.8596 0.9005 0.8676 0.7488 0.9080 0.9258 
Metabolic 0.9240 0.8250 0.9608 0.7638 0.9221 0.7639 0.7700 0.9492 0.9732 
NS 0.9754 0.6579 0.9814 0.9753 0.9856 0.9819 0.9334 0.9771 0.9946 
Football 0.8395 0.2950 0.8403 0.8505 0.8511 0.8772 0.5808 0.8573 0.8957 
Circuit 0.5446 0.4212 0.5448 0.5612 08301 0.9001 0.6747 0.9066 0.9116 
Facebook 0.8434 0.7514 0.8592 0.7874 0.8421 0.7698 0.7754 0.8918 0.8869 
Hamster 0.7949 0.8871 0.8065 0.7993 0.9349 0.8390 0.8695 0.9476 0.9714 
5 结束 语 local information [J]. European Physical Journal B, 2009, 71 (4): 623- 
630. 
准确 预测 复杂 网 络 中 节点 间 的 相似 性 对 于 加 快 积极 信息 [6] Gul H, Amin A, Adnan A, et al. A systematic analysis of link prediction 


在 网 络 中 传播 、 预 防 电信 诈骗 、 促 进 电 商 网 络 的 发 展 具 有 现 
实意 义 。 uin E od Ne ee 大 都 
认为 粒子 转移 到 其 不 同 邻居 的 概率 相等 ， 然 而 ， 该 方法 在 分 
析 中 忽略 了 网 络 的 详细 结构 信息 。 在 本 文中 ， 通 过 考虑 最 低 
度 偏 置 游 走 对 粒子 转移 概率 的 影响 ,定义 了 最 低 度 偏 置 函数 ， 
提出 一 种 混合 游 走 策略 ， 并 将 其 应 用 到 重启 随机 游 走 中 ， 进 
i 量化 节点 间 的 相似 性 。 以 提出 的 方法 为 基础 ， 在 真实 网 络 
上 经 过 大 量 实验 ， 并 对 各 指标 的 预测 效果 进行 对 比分 析 ， 证 


实 了 所 提 方 法 的 有 效 性 和 可 行 性 ， 表 明 该 算法 在 节点 相似 性 
的 度量 上 中 具有 一 定 的 优势 。 
本 文 所 提 算 法 仅 适用 于 无 权 无 向 的 单 层 网 络 ， 具 有 一 定 
的 局 限 性 ， 如 何 设计 适用 于 加 权 有 向 的 多 层 网 络 的 链 路 预测 
算法 ， 是 接 下 来 要 研究 的 问题 。 在 下 一 步 的 研究 中 ， 可 以 党 
试 挖掘 更 多 的 影响 随机 游 走 过 程 的 结构 信息 ， 将 此 应 用 在 多 
层 网 络 上 ， 进 一 步 提高 链 路 预测 的 准确 度 。 
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